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B e s c hr e i bung 

Verfahren und Vorrlchtung zur Bearbeltung bedingter Sprungbe- 
fehle in exnem Prozessor soi-t "Pipelined" -Architektur 

5 

Die vorliegende Erfindung betrifft ein Verfahren und eine 
Vorrlchtung zur Bearbeitung bedingter Sprungbef ehle in einem 
Prozessor mit "Pipelined" -Architektur. 

10 Die Anzahl der benotigten Zyklen fur die Ausfiihrung bestimm- 
ter Befehle ist eines der wichtigsten Leistungsmerktnale eines 
Prozessors. Urn maxitnale Verarbeitungsgeschwindigkeit und mi- 
nimalen Leistungsverbrauch zu erreichen, soil die Anzahl der 
Zyklen moglichst minimiert werden. Zu diesem Zweck kennt der 

15 Stand der Technik bereits Prozessoren mit der sogenannten 
"Pipelined" -Architektur . Dies bedeutet, dalS der Prozessor 
mehrere Befehle gleichzeitig abarbeitet, wobei sich jeder Be- 
fehl in einer anderen Stufe der Bearbeitung befindet. Bei- 
spielsweise wird ein Befehl gerade ausgefuhrt, der nachste 

2 0 wird gleichzeitig schon decodiert, der libernachste aus dem 

Speicher angefordert, etc. 

In einer solchen "Pipelined" -Architektur kann insbesondere 
eine bedingter Sprungbefehl (branch) zum sogenannten 
i "harzard" fiihren, wodurch dann sogar falsche Ergebnisse ent- 
stehen konnen. Bei einem bedingten Sprungbefehl liegt namlich 
erst nach Abarbeitung dieses bedingten Sprungbef ehls die 
Adresse des nachstf olgenden Befehls fest, Auf diese Weise 
kann also der nachstf olgende Befehl erst dann aus dem Spei- 

3 0 Cher angefordert und decodiert werden, wenn das Ergebnis der 

Ausfiihrung des vorigen Befehls aus dem Rechenwerk des Prozes- 
sors zur Verfiigung steht. 

Gemafi dem bisherigen Stand der Technik wurde dieses "hazard" - 
35 Problem dergestalt gelost, daS direkt nach dem Sprungbefehl 
so viele Dummy-Bef ehle (NOP) , also No-Operation- oder Warte- 
befehle eingefvigt werden, daS 'die Ergebnisse auf jeden Fall 
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richtig bleiben. Dadurch werden allerdings auch so viele Pro- 
zessorzyklen nicht ausgenutzt, wie Dununy-Bef ehle abgearbeitet 
werden mussen. 




5 Es ist daher die Aufgabe der vorliegenden Erfindung, die Be- 
arbeitung bedingter Sprungbef ehle in einem Prozessor mit 
„ pipelined** -Architektur ohne einen so groiSen Verlust an Pro- 
zessorzyklen durch Dummybef ehle zu ermoglichen. 

10 Erf indungsgemaS wird diese Aufgabe durch ein Verfahren zur 
Bearbeitung bedingter Sprungbef ehle in einem Prozessor mit 
"Pipelined" -Architektur gelost, bei der jedem Befehl, nach 
dem ein bedingter Sprung ausgefiihrt werden soli, ein oder 
mehrere zusatzliche Bits hinzugefiigt werden, die angeben, un- 

15 ter welcher Bedingung der bedingte Sprung auszufuhren ist. 

Auf dieses Weise kann bereits ein Befehl friiher festgestellt 
werden, ob eine Verzweigung (branch) durchzuf lihren ist, oder 
nicht. Damit steht bereits ein Befehl f ruber fest, welches 
der nachste Befehl nach dem bedingten Sprung sein wird. Durch 

20 diese "branch-prediction" im Befehlssatz ist es also moglich, 
wesentlich friiher das Sprungziel eines bedingten Sprungbe- 
f ehls f estzustellen, 

Dabei ist es besondere bevorzugt, daS zusatzlich zu jedem Be- 
fehl, nach dem ein bedingter Sprung ausgefiihrt werden soil, 
die entsprechende Sprungadresse zugefiigt wird. Auf diese Wei- 
se ist einen Befehl f ruber nicht nur bekannt, ob ein beding- 
ter Sprung durchgefiihrt werden soil oder nicht, sondem es 

ist bereit s di e entsprechende neue Zi e ladr e ooc bekannt. Damit 

3 0 kann bereits der richtige Befehl aus dem Arbeitsspeicher des 
Prozessors angefordert werden. 




Weiter konnen vorzugsweise zusatzlich jedem Befehl ein oder 
mehrere Bits hinzugefugt werden, die angeben, unter welchen 
Bedingungen der Befehl liberhaupt auszufuhren ist. 
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Zur weiteren Optimierung der Arbeitsgeschwindigkeit des Pro- 
zessors ist es dabei besonders bevorzugt, bei jedem der Be- 
fehle mit einem oder mehreren zusatzlichen Bits parallel zur 
Ausfuhrung des Befehls die dem oder den Bits entsprechenden 
5 Flags (z.B. zero, carry, overflow) im Prozessor zu priifen, 

wenn das entsprechende Bit gesetzt ist, imd abhangig von die- 
sem Ergebnis den Programmzahler des Prozessors entsprechend 
einzustellen. 

10 Die Aufgabe der vorliegenden Erfindung wird ebenso durch eine 
Vorrichtung zur Bearbeitung bedingter Sprungbef ehle in einem 
Prozessor mit " Pipelined" -Architektur gelost, in dem eine 
Vorrichtung zur Veranderung des Programmzahlerstandes zur 
Ausfuhrung der bedingten Spriinge vorgesehen ist. 

15 

Dabei ist es besonders bevorzugt, wenn die Vorrichtung zur 
Veranderung des Programmzahlerstandes einen oder mehrere Ein- 
gange fur entsprechende zusatzliche Bits in den Maschinenbe- 
fehlen des Prozessors und einen oder mehrere Eingange fur die 
20 entsprechenden "Flag" -Signale aus dem Rechenwerk des Prozes- 
sors aufweist. 



Es ist dabei besonders vorteilhaft, wenn sichergestellt ist, 
dag die entsprechenden zusatzlichen Bits aus den Maschinenbe- 
I fehlen gleichzeitig mit den zugehorigen "Flag" -Signalen an 
der Vorrichtung zur Veranderung des Programmzahlerstandes an- 
liegen. 

Vorzugsweise ist die Vorrichtung znr Veranderung des Pr o- 

3 0 grammzahlerstandes mit einem Addierwerk ausgeriistet. 

Die vorliegende Erfindung wird im folgenden anhand der in der 
Anlage beigefugten Zeichnungen naher erlautert . Es zeigen: 

35 Fig. 1 den Arbeitsablauf eines Prozessors mit zweistufiger 
Pipeline; 
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Fig. 2 den Aufbau eines erf indungsgemaSen 22 Bit langen Ma- 
schinenbef ehls ; 

Fig. 3 den Aufbau eines erf indungsgemaSen 25 Bit langen Ma- 
5 schinenbef ehls ; 

Fig. 4 eine schematische Darstellung einer erf indungsgemalSen 
Vorrichtung zur Veranderung des Programmzahlerstandes zur 
Ausfuhrung bedingter Spriinge; 

10 

Fig. 5 eine weitere erf indungsgemafie Vorrichtung zur Veran- 
derung des Programmzahlerstandes zur Ausfuhrung bedingter 
Spriinge ; 

15 Fig. 6 eine schematische Darstellung des Gesamtauf baus eines 
Prozessors mit "Pipelined" -Architektur zur Ausfuhrung beding- 
ter Sprungbef ehle mit der erf indungsgemaSen "branch- 
prediction"; und 

20 Fig. 7 eine detaillierte Darstellung eines , Prozessors mit 
Vorrichtungen zur erf indungsgemaSen "branch- predict ion" . 

Die vorliegende Erfindung geht von einer "pipelined" - 
Architektur fiir einen Prozessor aus . Diese ist beispielsweise 
I in dem Buch "Computer Organisation and Design" von Pattersen 
& Hennessy beschrieben. 

Kurz gefafit bedeutet die "Pipelined" -Architektur f olgendes : 



3 0 Normalerweise wird jeder Maschinenbef ehl von einem Prozessor 
mittels folgender Operationen abgearbeitet : 

1. Instruction fetch (Laden des Befehls) 

2. Instruction decoding (Dekodieren des Befehls) 
35 3. Execution (Ausfuhrung des Befehls) 

4. Write back (Zuriickschreiben der Ergebnisse) 
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Es ist bereits im Stand der Technik bekannt, diese Operatic- 
nen teilweise parallel ablaufen zu lassen, indem ein Befehl 
beispielsweise gerade ausgefiihrt wird, wahrend bereits der 
nachste Befehl dekodiert wird, Diese Vorgehensweise ist in 
5 der Figur 1 fur eine zweistufige Pipeline dargestellt. 

Ein Prozessor nutzt die "Pipeline" also, um im Schnitt einen 
Befehl pro Prozessorzyklus zu verarbeiten, 

10 Diese "Pipelined" -Architektur des Prozessors fiihrt allerdings 
dann zu Problemen, wenn bedingte Sprungbef ehle ausgefiihrt 
werden sollen. Dieses Problem wird in der Fachsprache "branch 
harzard" genannt. Dies bedeutet, daS ein "branch" -Befehl , al- 
so ein bedingter Sprungbef ehl , erst nach Ausfiihrung des vori- 

15 gen Befehls zeigen kann, ob der nachste Befehl weiter bear- 
beitet oder auf eine andere Zieladresse gesprungen werden 
soil . 

Im Stand der Technik lost man dieses Problem, indem der Takt 
20 nach dem bedingten Sprungbef ehl mit einem "No operation" - 

Befehl, also einem Befehl, einen Prozessorzyklus zu warten, 
gefvillt wird. Dann ist zwar auf jeden Fall sichergestell t , 
daS das Programm richtig weiterlauft, man verliert aber einen 
Prozessorzyklus und damit die maximal mogliche Rechenlei- 
I stuiig. Der bisherige Stand der Technik soli anhand der fol- 
genden Beispiele, die jeweils die Berechnung des Absolut -Be- 
trags einer Zahl behandeln, naher erlautert werden: 

?^uni e i nen gi b t es die Moglichk e it dor bedingten Ausfuhruixg, 

30 also beispielsweise: 

/* A = |B| */ 
LOAD Rl B 

COMPARE Rl 0 /*wenn B > 0, carry = 0 */ 
35 NEGATIVE Rl on-carry /* negieren wenn carry = 1 */ 

STORE Rl A 
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Diese Art der Ausfuhrung ist jedoch nur moglich, wenn nur ein 
einziger Befehl bedingt ausgefuhrt werden mu&, und dieser Be- 
fehl keinen Sprung enthalt. Bei komplexeren Funktionen oder 
Aufgaben, die nicht mehr nur mit einem Befehl dargestellt 
5 werden konnen, muS jeweils ein bedingter Sprung erfolgen, wie 
dies im folgenden Programm dargestellt ist. Wie aus dem ein- 
gerahmten Programmabschnitt erkennbar ist, mufi nach den bei- 
den Sprungbef ehlen ein "no operation" -Befehl eingefugt werden 
(im Falle einer zweistufigen Pipeline, bei langeren Pipelines 
10 entsprechend mehr "no operation" -Befehle : 



LOAD 


Rl 


B 


COMPARE 


Rl 


0 


JUMP ON 


CARRY 


LI 


JUMP 


L2 




NO OP 







LI : NEGATIVE Rl 
L2: STORE Rl A 

20 

SchlieSlich gibt es im Stand der Technik noch die Moglichkeit 
der sogenannten spekulativen Ausfuhrung. Das bedeutet, daS 
man einfach eine Moglichkeit ausfiihrt, und hofft, mit einer 
Wahrscheinlichkeit von etwas mehr als 50 % die richtige Fort- 
I setzung zu treffen. Dies erfordert aber einen ganz erhebli- 
Chen Hardware -Auf wand, da ja dann im Falle des Nicht zutref- 
fens der Vermutung einige Befehle "riickabgewickelt " werden 
miissen. Aufierdem gehen trotzdem Prozessorzyklen verloren, 

w e nn man sich "verschatzt" hat. 

30 

Gemafi dem Stand der Technik gab es also bisher keine geeigne- 
te Losung fur dieses Problem, daS ein solcher "branch 
harzard", also ein Problem bei der bedingten Verzweigung, ei- 
nen Verlust an Arbeitszyklen des Prozessors in einer "Pipe- 
35 lined" -Architektur bewirkte. Erf indungsgemaS wird nun durch 

eine Kombination eines Befehls mit "bedingter Ausfuhrung" und 
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eines "Sprungarithmetik" -Bef ehls dieses Problem f olgenderma- 
ISen gelost: 

Hier soil wieder ein einf aches Beispiel betrachtet werden, 
5 namlich der Befehl "Addiere R2 zu Rl, wenn Rl dann =0 ist, 
springe nach LI". Dieses Programm wird in "C" wie folgt ge- 
schrieben: 



Rl = Rl + R2 
10 if (Rl = = 0) 

GO TO LI 
LI: 



Erf indungsgemaS wird dafiir der Maschinenbef ehl ADD Rl, R2 , 
15 #JMP, ON ZERO, verwendet, #JMP bedeutet dabei die relative 
Sprungadresse zum Einsprungspunkt LI . 

Damit erweitern wir einmal den Befehl um eine "Post- 
Condition" zur bekannten "Pre-condition". Zum Beispiel: PI, 
20 ADD Rl, R2, #JMP, Ql . 

Dabei bedeutet PI: Ausfuhren von R1=R1+R2 wenn PI erfiillt 
ist. Erf indungsgemaS bedeutet Ql: Ausfuhren von Sprung um »JMP 
wenn Ql nach der Berechnung von R1=R1+R2 erfullt ist. 

^ Damit konnte man das folgende "C" -Programm: 



30 



if (A=l) 
B = A; 
else 
C = A; 



f olgendermafien in Maschinencode libersetzen: 



35 



LOAD Rl A 

Ql TEST Rl 1 # L /* if A=l jump L */ 

PI Ql STORE Rl b' 
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STORE Rl C 



Erf indungsgemaS konnen also in der Bef ehlscodierung sowohl 
Bits fur "Pre -Conditions" als auch Bits fur 
5 "Post-Conditions" vorgesehen werden, wie dies beispielsweise 
in Fig. 2 und 3 dargestellt ist. 

Fig. 2 zeigt dabei ein vereinf achtes Beispiel mit einem le- 
diglich 22 Bit langen Befehl, wobei ein Bit 1 fur die "Pre- 
10 Condition" ein Bit 2 fur die "Post-Conditions", 8 Bit 3 bis 
10 fur den relativen Sprungwert (Displacement) und dann wie 
ublich je drei Bits fur die beiden Registeradressen und 6 Bit 
fur den Befehlscode vorgesehen sind, 

15 In der Realitat ist es liblicherweise erf orderlich, mehrere 

Bedingungen als "Pre-condition" und "Post -Condition" zu prii- 
fen. Es mussen deshalb entsprechend mehr Bits vorgesehen wer- 
den, wie dies in Fig. 3 dargestellt ist. 

20 In Fig. 3 enthalten die Bits 0 bis 1 die Inf ormationen fur 
Post condition, die Bits 2 und 3 Information fur Pre- 
conditions, die Bits 4 bis 10 die relative Sprungadresse , 
d.h. die Sprungweite. 

Besonders wirkungsvoll laSt sich das erf indungsgemaSe Verfah- 
ren im Zusammenhang mit einer Programmschleif e einsetzten, 
beispielsweise fur das folgende "C" -Programm: 

fur (i = l; i < 5; i-n>) ( 

30 X [i] = i; 

} /* C- Programm */ 

Erf indungsgemaS kann dies dann in das folgende erheblich ver- 
einf achte Maschinenprogramm umgesetzt werden: 




35 



Load Rl 5 

Load R2 X /*Adresse von X[5]*; 
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Ll= STORE_INDEXED R2 Rl /* x[i] = i */ 
Ql DECREMENT Rl #1 LI 

ADD R2 1 /*i = i+1*/ 

5 Dabei bedeutet die "Post condition Ql": Bedingter Sprung, 
wenn das Ergebnis R1=R1-1 nicht 0 ist. 

Ein weiteres Beispiel fur die erf indungsgemalS erzielbaren 
Vereinf achungen bei der Prograinmierung ist das im folgenden 
10 dargestellte Programm fur die Abarbeitung eines Ringpuffers. 

Gemafi dem Stand der Technik hatte dieses Programm wie folgt 
programmiert werden mussen: 

15 TST (R3) #buf€er_end // ring buffer end reached 

BNZ NEXT // if no 

NOP 

LDI (R3) #buf f er^start // else set the pointer to buffer 

again 

20 

Erf indungsgemaS genugen statt dessen die folgenden beiden Be- 
f ehle : 

I TST (R3) #buffer_end 

' LDI {R3) #buffer_start 

Es ist jedoch zu beachten, daS diese erf indungsgemaSe Losung 

nicht fur alle Schleif enstrukturen anwen Hy^^ -r i pt . Sghleifen- 

3 0 strukturen aller Art konnen jedoch erf indungsgemaS wie folgt 
programmiert werden: 

LDI (R4) #loop_cnt_minus_l // init loop counter 
WHILE_LOOP: 

25 FIRST_PC // code seguency 

SUBI (R4) #1 #loop_flag // decrement by 1 and in- 
dicate loop end 
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BNZ WHILE_LOOP // if not zero go to loop 

begin 

Erf indungsgemalS wird anstelle des ublichen Subtraktions- 
5 Maschinenbef ehls SUB ein Maschinenbef ehl SUBI verwendet, der 
erweitert ist, so daS er ein Flag-Bit aufweist, welches dazu 
benutzt wird, einen Zyklus vor dem bedingten Sprungbefehl BNZ 
anzuzeigen, was die richtige Verzweigung beim bedingten 
Sprung ist, so daS im Falle einer zweistufigen Pipeline liber- 
10 haupt kein Verlust an Prozessorzyklen auftritt. Der Befehl 
LDI zeigt einen Schleif enbeginn an. 

Die typische Losung zur Vermeidung des "branch harzard" be- 
ruht darauf, eine Vorhersage liber das zu erwartende Sprung- 
15 ziel des bestimmten Sprunges zu machen. 

Die Implement ierung einer Schleife erfordert im allgemeinen 
diese drei Schritte: 

20 1. Initialisiere den Schleif enzahler 

2. Dekrementiere oder inkrementiere den Schleif enzahler 

3. Springe am Ende der Schleife 

Der Zyklenverlust bei dem bedingten Sprung beruht darauf , daS 
i die nachste Instruktion, die nach dem Sprung ausgefiihrt wird 
abhangig von der Erfiillung der Schleif enbedingung ist. Diese 
Tatsache fuhrt dazu, daS nach dem bedingten Sprungbefehl der 
Dummy-Befehl NOP eingefugt werden mufi. Durch Verwendung eines 

Schleif en-Flags in einem Rechenbefehl wie ADD oder SUB kann 

30 die Schleif enbedingung am Ende der Ausfuhrung des Additions- 
Oder Subtraktionsbefehls gepriift werden. Dann kann das "Zero- 
flag", d.h. die Anzeige des Rechenwerks, daS es auf 0 steht, 
gepriift werden, um zu entscheiden, auf welche Adresse der 
Prograramzahler des Prozessors gesetzt werden sollte. Das 
35 "LOOP-flag" kann als "ENABLE-DISABLE-f lag" oder allgemeiner 
als Adressverschiebung interpret iert werden. 
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Figur 4 zeigt das einfachste Grundprinzip fiir die erfindungs- 
gemaSe Implement ierung eines "LOOP" -flags , 

Der Programmspeicher 10 wird hierbei viber einen Multiplexer 
5 12 mit dem Programmzahler 14 verbiinden. Der Ausgang des Pro- 
grammzahlers (PC) 14 ist mit einem logischen Gatter 16 ver- 
bunden, welches den Ausgangswert des Programmzahlers mit ei- 
ner Konstante oder dem LOOP-flag verknupft. Der Ausgang die- 
ser Logik-Schaltung 16 ist mit dem einen Eingang des Multi- 
10 plexers (MUX) 12 verbunden, dessen anderer Eingang ja mit dem 
Programmspeicher 10 verbunden ist, und dessen Ausgang mit dem 
Programmzahler 14 verbunden ist. Der Multiplexer 12 wird uber 
ein Steuersignal (Control) vom Prozessor gesteuert, 

15 Bine weitere Verbesserung der Erfindung erlaubt den Verzicht 
auf den Sprungbef ehl , indem der Beginn der Schleife gepuffert 
wird: 

LDP {R4) #loop_cnt_minus_l 
2 0 WHILE_LOOP: 

FIRST_PC 
SUBI (R4) #1 #Loop-flag 
NEXT_INS : 

^ Hierbei ist ein zuatzlicher Befehl LDP erf orderlich, der an- 
zeigt, daS eine Schleife beginnt . Die nachste Programmcodea- 
dresse wird dann als Schleif enbeginn gepuffert. Das selbe Re- 
sultat konnte man auch erzielen, indem man den Befehl LDI 

verwendftt und den n a chsten Programmaahlerwort explizit in den 

30 Puffer ladt . Hierdurch wird aber natiirlich wieder ein zusatz- 
licher Befehl benotigt. Der Befehl SUBI weist ein Loop-flag 
auf, welches dazu dient, anzuzeigen, welches die richtige 
Verzweigung bei dem bedingten Sprung ist. Das zero-flag wird 
gepriift, urn zu entscheiden, ob man zum Beginn der Schleife 
35 zuruckspringen soil, oder die nachste Instruktion (NEXT_INS) 
ausfiihren soil, die durch #-Loop-Flag angezeigt ist. 
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Fur diese vereinfachte Bearbeitiing von Schleif enstrukturen 
ist eine etwas kompliziertere Struktur der erf indungsgemaSen 
Schaltung erf orderlich, wie sie in Fig. 5 dargestellt ist. 

5 Ahnlich wie in Fig. 4 ist auch hier ein Programmspeicher 10 
vorgesehen, der mit dem Eingang eines Multiplexers 12 verbun- 
den ist, dessen Ausgang wiederum mit dem Programmzahler (PC) 
14 verbunden ist. Der Ausgang des Programmzahlers (PC) 14, 
ist ebenfalls mit einem logischen Gatter 16 verbunden, wel- 

10 ches den Ausgangswert des Programmzahlers mit dem Loop- Flag 
verknupft. Der Ausgang dieser Logik- Schaltung 16 ist mit ei- 
nem weiteren Eingang des Multiplexers (MUX) 12 verbunden. Im 
vorliegenden Fall weist jedoch der Mulitplexer 12 einen wei- 
teren Eingang auf , der mit einem Puffer 18 verbunden ist, 

15 dessen Eingang mit dem Wert des Programmzahlers 14 geladen 

werden kann. Auf diese Weise erubrigt sich der explizite Be- 
f ehl "Lade den nachsten Programmzahlers tand in den Puffer" . 

Die Fig. 6 zeigt den gesamten Aufbau eines Prozessors mit der 
20 Fahigkeit, die erf indungsgemaSen Befehle abzuarbeiten. Glei- 
che Elemente wie in den Fig. 4 und 5 sind auch hier mit glei- 
chen Bezugszeichen versehen. Der Programmzahler (PC) 14 
greift wiederum auf den Programmcodespeicher 10, und dabei 
jeweils auf die abzuarbeitende Programmzeile zu. Vom Pro- 

•grammspeicher 10 wird der entsprechende Instruction Code (Be- 
fehlscode) dem Bef ehlsdecoder (IDEC) 2 0 zugefiihrt. Dieser 
gibt die entsprechenden Steuerbef ehle an das Rechenwerk (ALU) 
22 und an den Registersatz 24 weiter. Die Inhalte der Regi- 
ster werden dann nach Bedarf in das Rechenwerk 22 geladen, 
30 Oder von dort wieder zuruckgeschrieben, wie dies mit den 
Pfeilen angedeutet ist. Die Flag-Signale zero, carry und 
overflow des Rechenwerks 22 werden gleichzeitig sowohl dem 
Bef ehlsdecoder (IDEC) 2 0 als auch dem Steuereingang des Mul- 
tiplexers (MUX) 12 zugefuhrt. Die beiden Eingange des Multi- 
35 plexers 12 sind mit dem Wert 1 und mit dem vom Bef ehlsdecoder 
20 gelieferten relativen Sprungwert #JMP belegt . Der Ausgang 
des Multiplexers 12 ist mit einem Addierwerk 16 verbunden, 
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dessen anderer Eingang mit dem Ausgang des Programmzahlers 14 
verbiinden ist . 



Bei mehr als zwei Pipelined-Stuf en ist zu beachten, daS die 
5 Flag-Signale zero, carry, overflow und der zugehorige relati- 
ve Sprungwert #JMP gleichzeitig am Multiplexer 12 anliegen 
mussen. Bei einer zweistufigen Pipeline, wie bei dem vorlie- 
genden Ausfiihrungsbei spiel beschrieben, ist dies jedoch 
nicht erf orderlich. Im folgenden wird nun die entsprechende 
10 Bef ehlscodierung mit der erf indungsgemalSen "Post -condition" 
beschrieben. Hierzu wenden wir uns nochmals der Fig, 2 zu, 
die den einf achstmoglichen erf indungsgemaSen Befehlssatz mit 
einer Lange von 22 Bit darstellt. 

15 Die obersten 6 Bit (21 bis 16) enthalten dabei den Befehls- 
code (OPCODE), beispielsweise : Addition, Die nachsten drei 
Bits enthalten die Adresse des ersten Registers (REG A) mit 
drei Bit Lange (libliche Prozessoren verwenden meist nicht 
mehr als 8 Register) auf den Bits 15, 14, 13, sodann folgt 

20 die Registeradresse des zweiten, im vorliegenden Fall zu ad- 
dierenden Registers (REG B) auf den Bits 12, 11 und 10. 

Das Rechenwerk des Prozessors wird bei diesem Befehl also den 
Inhalt der Register A und B addieren und ins Register able- 
k gen. Erf indungsgemaS sind diesem Befehl nun weitere Bits an- 
" gefiigt, namlich die Bits 9 bis 2 (displacement) , die die re- 
lative Sprungweite bei einem folgenden bedingten Sprung ange- 
ben. Sodann folgen die Condition-Bits 1 und 0, wobei das Bit 

1 (Post) die Post-condition angibt. wahrend das Bit 0 (PRE) 

30 die Pre-condition angibt . 

Der Bearbeitungsablauf ist dabei nun f olgendeirmaSen : Der Be- 
fehl muS abgeholt Lind decodiert werden. Dazu startet der Pro- 
zessor an einem bestimmten Programmzahlers tand, z.B, PC=0. 
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Mit diesem Programmzahl erst and wird ein Befehl von 22 Bit aus 
dem Progranunspeicher abgeholt, der an der diesem Progranimzah- 
lerstand entsprechenden Adresse im Speicher steht. 

5 Der Befehl wird sodann vom Instruction-Decoder (IDEC) 20 ver- 
arbeitet . 

Dabei wird zuerst gepriift, ob das entsprechende Pre- 
condition-Bit gesetzt ist. Wenn dies der Fall ist, wird der 
10 Befehl beim Nichterf ullen der entsprechenden Pre-condition 
gar nicht ausgef uhrt . 

Der Unterschied der vorliegenden Erfindung zum Stand der 
Technik liegt in den Post-condition-Bits . 

15 

Aus diesem Post-condition-Bits wird das Signal "BR^CTR" er- 
zeugt. Gleichzeitig wird die Addition f olgendermaSen durchge- 
fiihrt: 

20 Ein Steuersignal ALU-CTR sowie die Lese- und Schreibadressen 
und Enable-Signale fiir das Rechenwerk werden erzeugt . Zu- 
gleich stellt der Instruction-Decoder 20 die relative Sprung- 
weite "BR" zur Verfugung. Das "BR-CTR" -Signal steuert die 
Verzweigungskontrolle nach folgenden Vorgaben an: 

1. Kein Sprung, wenn Post-condition-Bit=0 , also PCNEW=PC0LD+1 

2. Wenn Post-condition-Bit=l und die Bedingung erfullt wird, 

z.B. zero-flaq=l. dann wird ein relatiwr fip-r nng angg^f 1^Vl■r^ 

3 0 Der Programmzahler 14 wird also auf den neuen Wert 

PCNEW=PCOLD+BR gesetzt. 



35 



Wenn das Post -condition-Bit zwar ==1 ist, die Bedingung aber 
nicht erfullt wird, wird ebenfalls kein Sprung durchgefuhrt , 
also : PCNEW=PCOLD+l . 
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15 

Es ist moglich, mehr als ein Post-condition-Bit 2u verwenden, 
wie dies beispielsweise in Fig. 3 dargestellt ist. Es konnen 
dann mehr Bedingungen gepriift werden (beispielsweise zero, 
carry, overflow) . 

Erf indungsgemaS wird also erstmals gleichzeitig Steuerinfor- 
mation fur das Rechenwerk und Information zu Sprungzieladres- 
sen gleichzeitig vom Instruction-Decoder 2 0 beim Decodieren 
der Befehle bereitgestellt . 

Nunmehr wird der Befehl ausgefiihrt und ggf . verzweigt. 

Dazu wird die Aktion vom Rechenwerk (ALU) ausgef uhrt . Das Er- 
gebnis wird in das entsprechende Register zuruckgeschrieben. 
15 Gleichzeitig liegen die entsprechenden zero-, carry- usw. 
-flags am Ausgang des Rechenwerks an. 

Der Verzweigungssteuerung werden dabei die Bits fiir die ein- 
zelnen Flags, "BRCTR" und der Wert *'BR" zum gleichen Takt zur 
20 Verfugung gestellt. Wie in Fig. 7 dargestellt, erzeugt dann 
die Steuereinheit "Cond" 26 zwei Steuersignale SI und S2 . SI 
steuert an, entweder keinen Sprung vorzunehmen, oder einen 
relativen Sprung auszurechnen, S2 schaltet dann die relative 
Sprungadresse "PCNEW" durch den Multiplexer 12 durch. 

^ Im Ergebnis spart man einen zusatzlichen Befehl fiir den 
Sprung zusatzlich zu dem entsprechenden Arithmetikbef ehl . Da- 
durch kann man eine Verringerung der Anzahl der erforderli- 

Chen Befehle erreichen und erhnht damit den Durchsatz des 

3 0 Prozessors. 

Der Aufbau eines Prozessors zur Bearbeitung von Befehlen mit 
den erf indungsgemaSen "Post-condition-Bits" ist in Fig. 7 im 
einzelnen dargestellt. Gleiche Ziffern wie in den Fig. 4, 5 
35 und 6 verweisen auf gleiche Einheiten. 




5 



10 
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Auch in Fig. 7 ist ein Programmzahler 14 vorgesehen, der einen 
Bef ehlsspeicher (CODEROM) 10 adressiert. Von dort werden die 
Befehle tnit einer Bef ehlsbreite von 22 Bit dem Befehlsdeco- 
dierer (IDEC) 20 zugefuhrt. Dieser erzeugt die ub lichen Si- 
gnale zur Ansteuerung der Register 24 und des Rechenwerks 
(ALU) 22. Erf indungsgemaS erzeugt er jedoch auch zusatzlich 
die Signale "BR" (dieses Signal umfaSt mehrere Bits) und gibt 
die relative Sprungweite an, sowie das Signal "BR-CTR", wel- 
ches angibt, daS ein bedingter Sprung abzuarbeiten ist, und 
die entsprechenden Flag-Bits des Rechenwerks abzupriifen sind. 

Das Rechenwerk 22 liefert an seinem Ausgang Ergebnisse (re- 
sult) und die entsprechenden Flags, die bestimmten Bedingun- 
gen (z.B. 0=2ero, Uberlauf =overf low, Ubertrag=carry usw.) 
15 darstellen. Die Ergebnisse (result) konnen natiirlich auch den 
Registern 24 wieder zugefuhrt werden. Die "BR_CTR" -Signale 
und die Flags aus der ALU werden einer weiteren Logikeinheit 
(Cond) 26 zugefuhrt. Diese erzeugt in Abhangigkeit von den 
entsprechenden BR_CTR- Signal en und den zugehorigen Flags Si- 
20 gnale SI und S2, die den Multiplexer 12 und einen Schalter 
vor dem einen Eingang des Addierwerks 16 steuern. Dieser 
Schalter schaltet abhangig von der Erf lil lung der Flagbedin- 
gungen zwischen 1 und "BR" urn. Der andere Eingang dieses Ad- 
dierwerks ist mit dem Ausgang des Programmzahlers 14 verbun- 
I den . 

Auf diese erf indungsgemafie Weise kann mit relativ wenig tech- 
nischem Zusat zauf wand am Prozessor eine wesentlich schnellere 
Abarbeitung bedingter SprVingp durchgefuhrt werden. 
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Patent anspriiche 

1. Verfahren zur Bearbeitung bedingter Sprungbef ehle in einem 
Prozessor mit "Pipelined" -Architektur, dadurch ge- 
5 kennzeichnet/ dafi jedem Befehl, nach dem ein be- 
dingter Sprung ausgefuhrt werden soil, ein oder mehrere zu- 
satzliche Bits hinzugefugt werden, die angeben, unter welcher 
Bedingung der bedingte Sprung auszufiihren ist. 

10 2. Verfahren nach Anspruch 1, dadurch gekenn- 

zeichnet, daS zusatzlich zu jedem Befehl, nach dem ein 
bedingter Sprung ausgefuhrt werden soli, die entsprechende 
Sprungadresse zugefiigt wird. 

15 3. Verfahren nach Anspruch 1 oder Anspruch 2, dadurch 
gekennzeichnet, daS zusatzlich jedem Befehl ein 
Oder mehrere Bits hinzugefugt werden, die angeben, unter wel- 
chen Bedingungen der Befehl liberhaupt auszufiihren ist. 

4. Verfahren nach einem der Anspriiche 1 bis 3, dadurch 
gekennzeichnet, daS bei jedem der Befehle mit 
einem oder mehreren zusatzlichen Bits, parallel zur Ausfiih- 
rung des Befehls die dem oder den Bits entsprechenden Flags 
(z.B. zero, carry, overflow) im Prozessor gepriift werden, 
wenn das entsprechende Bit gesetzt ist, und abhangig von die- 
sem Ergebnis der Programmzahler (PC) des Prozessors entspre- 
chend eingestellt wird. 

5. Vorrichtung zur Bearbeitung bedingter Sprungbef ehle in ei- 

30 nem Prozessor mit "Pipelined" -Architektur , dadurch 

gekennzeichnet, daS eine Vorrichtung zur Veran- 
derung des Programmzahlerstandes zur Ausfiihrung der bedingten 
Spriinge vorgesehen ist. 
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35 



6. Vorrichtung nach Anspruch 5, dadurch gekenn- 
zeichnet, daS die Vorrichtung zur Veranderung des Pro- 
grammzahelerstandes einen oder' mehrere Eingange fiir entspre- 
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chende zusatzliche Bits in den Maschinenbef ehlen des Prozes- 
sors und einen oder mehrere Eingange fur die entsprechenden 
"f lag" -Signale aus dem Rechenwerk des Prozessors aufweist. 

7. Vorrichtung nach Anspruch 6, dadurch gekenn- 
zeichnet, daS die entsprechenden zusatzlichen Bits aus 
den Maschinenbef ehlen gleichzeitig mit den zugehorigen 

"f lag"-Signalen an der Vorrichtung zur Veranderung des Pro- 
grammzahlerstandes anliegen. 

8. Vorrichtung nach einem der Anspriiche 5 bis 1, d a- 
durch gekennzeichnet, dag die Vorrichtung 
zur Veranderung des Programmzahlerstandes ein Addierwerk urn- 
fast . 
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Zu s ammen £ a s s ung 

Verfahren und Vorrichtung zur Bearbei^ung bedingter Sprungbe- 
fehle in elnexn Prozessor mlt " Pipelined" -Archi'tektur 

Verfahren und Vorrichtung zur Bearbeitung bedingter Sprungbe- 
fehle in einem Prozessor mit "Pipelined" -Architektur, wobei 
jedem Befehl, nach dem ein bedingter Sprung ausgefuhrt werden 
soil, ein oder mehrere zusatzliche Bits hinzugefiigt werden, 
die angeben, unter welcher Bedingung der bedingte Sprung aus- 
zufuhren ist, Zusatzlich kann die Vorrichtung eine Vorrich- 
tung zur Veranderung des Prograiranzahlerstandes in Abhangig- . 
keit von den zusatzlichen Bits zur Ausfuhrung der bedingten 
Spriinge umfassen. 
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